其他
本地差分隐私技术在联邦学习中的实践
近几年,隐私泄露事件层出不穷。
二、分析联邦学习在隐私保护方面的问题三、我们如何利用最新的隐私保护技术缓解这个问题
我们这里只能非常简单的介绍了联邦学习的4个关键原则和4个实现机制。如需了解这些原则和机制的详情可以搜索“google federated learning”。
通常在满足以下条件时可以考虑使用联邦学习:1. 对于模型,端侧数据比服务端数据相关性更强 2. 端侧的数据数据量大3. 用户的标签可以从交互过程中很自然地推导出来4. 在诸如金融、医疗、企业数据联盟等高价值场景中有很多企业已经开始探索有一些与联邦学习相近的概念,例如mapreduce、心式机器学习模型等,我们需要来做下对比。
主流的隐私保护技术,包括:数据加密(对称/非对称)、去标识化技术( 统计,抑制, 假名, 泛化等)都无法解决这个问题。
此时我们引入一种隐私保护技术,也是我们的主角本地差分隐私(简称LDP),其诞生的初衷是希望通过将隐私数据的控制权交还给用户来真正保护用户隐私。
本地差分隐私技术发展历程
LDP可以很好的抵御以差分攻击为代表的各类隐私攻击手段,那么什么是差分攻击呢?这里举一个简单的示例:
作为对比,先回顾一下联邦学习的训练过程:
首先, 我们的第一个实践是:针对单个终端数据源的差分隐私保护。
我们这样做的原因来自于一个想法:“我们不单保护了端侧产生的数据,我们甚至想能不能将'某个终端是否参与了联邦学习'这个事实也进行隐藏?”答案是肯定的。有两种实现方式:
为了带给用户更强的安全感提供了以下两个功能:1. 整个过程中LDP的参数都可以由用户自己配置;2. 运行阶段的数据实时采集过程、噪声注入过程都可以在我们的隐私中心查看。
我们基于CIFAR-10数据集的实验结果:实验一:LDP对联邦学习准确度的影响
通常情况下注入LDP的噪声注入过程会影响联邦学习的准确性,但这里我们看到,在CIFAR-10数据集上的训练结果时准确度反而有一些提升。原因我们认为是目前LDP与场景的相关性较强。不同场景下LDP的使用会有较大差别,如何实现通用的LDP层也是目前一个重要的研究方向。
真实场景下手机端的联邦学习模型涉及的客户端数量非常大(很可能有上千万的端侧设备接入一个联邦学习系统),如何在这种情况下实现模型准确度与隐私保护的平衡也是一个难点。
我们认为将数据留在端侧是隐私保护的重要发展方向,虽然过程中会遇到很多问题,但值得在这个方向上继续研究。 把产品卖给消费者很难, 更难的是从心底里认同产品的理念。 我们的一个目标是:用户拿到我们设备,在享受更智能体验的同时,从心底里认为“并不是某家公司懂我, 只是手上的这台设备懂我。”
END
长按关注 最新动态